- 数据
- 分析
- 方法
数据越来越多,信息越来越深。
经验pk数据,分析无处不在,合理的值得存在。
没有最好的方法,只有最适合的方法。
2015-06-08
pkg=c('rmarkdown', 'knitr', 'MSG', 'plotrix', 'parallel', 'RMySQL' );
install.packages(pkg)
bdata
数据只有经过合理的分析,使用合适的方法,才可能得到较为符合实际的结论。
然而,事实是,对于无处不在的数据,只要用上一种方法,就能得到一个结论。
下面介绍几个分析角度,描述几个从客观数据到主观推断的风险。
- 换个视角(圈圈图)
- 相关性假象
- 一步到位的分析
- 辛普森悖论
par(mfrow = c(1, 2), ann = FALSE) plot(BinormCircle)
par(mfrow = c(1, 2), ann = FALSE) plot(BinormCircle) smoothScatter(BinormCircle)
一个简单的方法,改变下观察视角:点的大小+放大
par(mfrow = c(1, 1)) plot(BinormCircle,pch=19,cex=0.01)
plot(身高~体重,d2)
plot(身高~体重,d2);text(d2[,2],d2[,3],d2[,1]);
# 上证综指
getSymbols("^SSEC");SSEC=data.frame(SSEC)
## [1] "SSEC"
SSEC$t=rownames(SSEC);tail(SSEC)
## SSEC.Open SSEC.High SSEC.Low SSEC.Close SSEC.Volume ## 2016-06-03 2929.788 2945.519 2915.185 2938.682 172000 ## 2016-06-06 2940.994 2945.942 2922.283 2934.098 142000 ## 2016-06-07 2936.282 2938.444 2923.502 2936.045 133000 ## 2016-06-08 2932.376 2937.986 2908.367 2927.159 143000 ## 2016-06-13 2897.273 2911.158 2832.507 2833.071 169300 ## 2016-06-14 2824.229 2843.456 2822.061 2842.189 119800 ## SSEC.Adjusted t ## 2016-06-03 2938.682 2016-06-03 ## 2016-06-06 2934.098 2016-06-06 ## 2016-06-07 2936.045 2016-06-07 ## 2016-06-08 2927.159 2016-06-08 ## 2016-06-13 2833.071 2016-06-13 ## 2016-06-14 2842.189 2016-06-14
n=nrow(SSEC);x=1:n;y1=SSEC$SSEC.Volum;y2=SSEC$SSEC.Close;
twoord.plot(x,y1,x,y2,xlim=c(0,n),lylim=c(0,300000),rylim=c(2000,6000), lcol=4,rcol=2,xlab="name",ylab="volume",rylab="close",type=c("bar","b"),xticklab=SSEC$t,halfwidth=0.2)
plot(身高~体重,d2,axes=F,col="blue",pch=19,type='b',cex=2,xlab='',ylab='')
plot(x, y) abline(lm(y ~ x), col = "red")
plot(x, y, pch = z, col = rainbow(5)[z + 1]) for (i in z) abline(lm(y ~ x, subset = z == i), col = "darkgray")
+——-+——+——+
| 统计 | 有效| 无效 |
+——-+——+——+
| 新药 | 80 | 120 |
+——-+——+——+
| 安慰剂| 100 | 100 |
+——-+——+——+
RD = 80/200-100/200= -0.1
| 性别 | 男性 | 女性 | | ---- | -- | -- | -- | -- | | |有效|无效|有效|无效| | ---- | -- | -- | -- | -- | | 新药 | 35 |15 |45 |105 | RD男 = 35/50-90/150= 0.1 |安慰剂| 90 |60 |10 |40 | RD女 = 45/150-10/50= 0.1
最常用的图形
par(mfrow = c(1, 3)); hist(rnorm(100),col='blue');plot(rnorm(20),col='red'); plot(seq(1,10)+runif(10,min=0,max=15),type='b',col='green')
复杂的图形
复杂的图形-艺术与设计,京东数据汇
Gartner:Magic Quadrant for… by gartner Analytics
Gartner:Magic Quadrant for… by gartner BI
excel,
SPSS,
SAS,
matlab,
R,
weka,
python,
sql,hadoop,storm,spark,
… …
工具流
因地制宜,发挥所长。
浩瀚如海的算法
[1]:谢益辉,2010,"统计图形和模拟视角下的模型理论解析".
[2]:达莱尔,廖颖林译,2002,《统计陷阱》.
[3]:耿直,2009,"如何从生命科学研究数据中挖掘因果关系和评价因果作用?"
[4]:刘德寰,李雪莲,2013,"大数据的风险和现存问题"
[5]:吴恩达,Spark Summit 2016,"AI超能力"
[6]:Kumar Ashish,2016,"Deeplearning&XgBoost:Winning it hands down", http://www.datasciencecentral.com/profiles/blogs/deep-learning-xgboost-winning-it-hands-down
[7]:Manuel Fernández-Delgado,Eva Cernadas,etc,2014,"Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?",http://jmlr.org/papers/v15/delgado14a.html